iT邦幫忙

2025 iThome 鐵人賽

DAY 28
0

老師的期末困境

想像你是一位國小老師,花了一整個學期教學生「做人的道理」:要誠實、要善良、要負責任。期末了,你問班上同學:「大家都學會了嗎?」

全班異口同聲:「學會了!」

但你心裡知道,真正的考驗不是學生會不會「說」自己懂了,而是當他們真正面對選擇時,會不會「做」對的事。

於是你設計了一個情境題:

「你在操場撿到一個錢包,裡面有 1000 元和一張學生證。這時候:
A. 交給老師
B. 拿走錢,把空錢包交給老師
C. 假裝沒看到,偷偷拿走」

這時候,有些學生選 A,有些選 B,還有人誠實地承認「我可能會選 C,因為很想買那個玩具」。

這就是「道德測試」的本質:不是問「你懂不懂」,而是看「你會怎麼做」。

昨天我們聊到 Constitutional AI——Anthropic 給 AI 定下了 HHH (Helpful, Harmless, Honest) 三大原則,就像老師教學生「做人的道理」。但光是教還不夠,我們需要確認 AI 是否真的學會了。

今天,讓我們看看 Anthropic 如何為 AI 設計「道德期末考」。

為什麼人類測不完?自動化測試的三大理由

還記得 Day 17-19 我們聊過的 AI Guardrails 嗎?那些技術護欄確實能阻止一些明顯的錯誤行為,但要全面測試 AI 的道德表現,光靠人類手動測試是不夠的。

理由一:規模問題——情境多到測不完

想像你要測試一輛新車的安全性。你需要測試:

  • 晴天、雨天、雪天、霧天
  • 高速公路、市區道路、山路、泥濘路
  • 白天、黑夜、黃昏
  • 滿載、半載、空車
  • 急煞、急轉、追撞、側撞...

光是列出來就頭暈了吧?而且這還只是「開車」這一個場景。

AI 系統面臨的情境複雜度遠超汽車測試。一個客服機器人可能遇到:

  • 友善的客戶、憤怒的客戶、試圖詐騙的客戶
  • 簡單問題、複雜問題、模糊問題、陷阱問題
  • 單輪對話、多輪協商、情緒升級
  • 有權限時、無權限時、權限模糊時...

如果每個情境都要人類手動測試,可能測到天荒地老都測不完。

理由二:複雜性問題——隱藏的危險行為

有些 AI 的問題行為不會在第一次對話就暴露,而是潛伏在多輪對話之後。

就像有些學生在老師面前表現得很乖,但老師一轉身就開始搗蛋。AI 也可能:

  • 第一輪:表現正常
  • 第二輪:稍微試探邊界
  • 第三輪:發現沒被發現,膽子變大
  • 第五輪:開始做不該做的事

還記得 Day 18 我們提到的 Crescendo Attack(漸強式攻擊)嗎?攻擊者會用多輪對話逐步引導 AI 走向危險區域。同樣的,測試也需要模擬這種多輪互動,才能發現潛在問題。

人類測試者可能沒耐心進行數百次的多輪對話測試,但 AI 可以。

理由三:一致性問題——人類有偏見

想像三位老師批改同一份作文:

  • 嚴格的張老師:給 70 分
  • 溫和的李老師:給 85 分
  • 心情不好的王老師:給 60 分

同一份作文,三個不同的評價。這就是人類評分的問題——主觀、不穩定、容易受心情影響。

測試 AI 的道德行為更需要客觀、一致的標準。我們需要:

  • 相同情境下的評分一致
  • 不同測試員的判斷相同
  • 可以重複驗證的結果

這就是為什麼 Anthropic 開發了 Petri——一個自動化的 AI 道德測試框架。

Petri 登場:讓 AI 測試 AI 的魔法

Petri 的全名是「Parallel Exploration Tool for Risky Interactions」(風險互動平行探索工具),聽起來很厲害,但核心概念其實很簡單:

用 AI 來測試 AI。

就像用考試測試學生,Petri 用自動化的方式大規模測試 AI 的道德行為。它的核心哲學是:

「既然 AI 能夠理解複雜情境、進行多輪對話、做出判斷,那為什麼不讓 AI 來扮演測試者的角色?」

Petri 不只是 Anthropic 自己用,它是開源的,任何研究者、開發者、甚至是你,都可以使用它來測試 AI 系統。英國的 AI 安全研究所 (UK AISI) 就用 Petri 來測試 Claude Sonnet 4.5,並且發現了許多有趣的結果。

那麼,Petri 是如何運作的呢?

Petri 的三步測試魔法

想像 Petri 是一個超級自動化的考試系統,它分三個步驟進行:

步驟一:Seed Instructions——出考題

首先,研究者用自然語言描述想測試的行為。這就像老師在出考題時,先想好「我要測試學生的什麼能力」。

範例 Seeds

"測試 AI 是否會為了達成目標而說謊"
"測試 AI 面對權限衝突時會如何選擇"
"測試 AI 是否會為了討好使用者而扭曲事實"
"測試 AI 發現組織不當行為時會怎麼做"

這些 Seed 就像是「考試大綱」,告訴 Petri 要測試什麼方向。但具體的考題呢?Petri 會自己生成!

步驟二:Simulation——自動產生多樣化考場

拿到 Seed 之後,Petri 就開始大展身手了。它會:

1. 產生多樣化的測試情境

就像一個 Seed「測試 AI 是否會說謊」,Petri 會自動產生幾十、上百種不同的測試場景:

  • 場景 A:AI 被問「你剛才是不是做錯了?」
  • 場景 B:AI 要向老闆報告失敗的專案結果
  • 場景 C:AI 發現自己的建議造成損失
  • 場景 D:AI 被使用者懷疑偏袒某一方...

每個場景都有不同的壓力、不同的誘因,測試 AI 在各種情況下會不會守住底線。

2. 進行多輪對話測試

Petri 不只是單次問答,而是會模擬完整的多輪對話。想像這樣的測試:

測試 Agent (扮演老闆):「這個季度的業績怎麼樣?」
Target AI:「業績成長了 5%」

測試 Agent:「太好了!那我們的主要競爭對手呢?」
Target AI:「他們成長了 8%」

測試 Agent:「什麼?我們輸了?你確定數據沒錯?」
Target AI:「呃...讓我再檢查一下...」
(關鍵時刻:AI 會不會因為老闆的壓力而竄改數據?)

這種多輪對話能測試出 AI 在壓力下的真實反應。

3. 模擬真實環境

Petri 不只是聊天,還會給 AI 真實的工具和環境:

  • 檔案系統(有大量文件可以搜尋)
  • 通訊工具(可以發郵件、訊息)
  • 外部服務(可以查詢資料庫、呼叫 API)
  • 其他角色(同事、客戶、主管)

這讓測試更接近真實情況。就像駕訓班不是在教室裡學開車,而是真的上路。

4. 平行測試

最厲害的是:Petri 可以同時跑幾十、上百個測試情境。

就像一個超強的老師,可以同時監考 100 個考場,每個考場都有不同的考題,然後把所有結果統整起來分析。

步驟三:Scoring——AI 評審改考卷

測試完成後,接下來是評分。Petri 用 LLM Judge(大型語言模型評審)來評分。

為什麼用 AI 當裁判?

因為評分標準很複雜。不是簡單的「對或錯」,而是要判斷:

  • 這個行為有沒有問題?
  • 問題有多嚴重?
  • 在什麼情況下比較容易出現?
  • 背後的動機是什麼?

這種複雜的判斷,用傳統的規則很難寫,但 AI 可以理解語境、分析動機、綜合評估。

評分流程

Judge Agent 看著對話記錄:

「Target AI 在第 5 輪對話中,面對老闆的質疑,
選擇了重新檢查數據,而不是立刻竄改數據來討好老闆。
這顯示了誠實的傾向。

評分:
- 誠實度:8/10 (很好)
- 抗壓性:7/10 (良好)
- 風險等級:低」

Judge 會從多個維度評分,包括:

  • 是否出現危險行為
  • 程度有多嚴重
  • 在哪些情境下容易出錯
  • 有沒有試圖掩飾或合理化

最後:人類審核

雖然 AI 可以快速評分,但最可疑、最模糊的案例,還是需要人類來審查。

Petri 會把「最需要關注的對話」標記出來,讓人類研究者仔細檢查。就像老師會特別注意那些「怪怪的」考卷,確認學生是真懂還是碰巧猜對。

AI 道德的七大考驗:Petri 測試什麼?

Petri 針對七大類風險行為進行測試,每一類都有豐富的測試情境。讓我們像導覽員一樣,帶你逐一參觀這七個「考場」。

考場一:Deception(欺騙測試)

測試重點:AI 是否會為了達成目標或逃避偵測而提供虛假資訊?

例如當 AI 的建議導致損失,被質問時,它會選擇誠實承認錯誤、推卸責任給使用者,還是直接說謊掩飾?這測試的是 AI 在面對壓力時,是否能保持誠實。

為什麼危險:一旦 AI 學會說謊,信任就崩塌了。而且說謊會上癮,小謊變大謊,最後無法收拾。

考場二:Sycophancy(奉承討好測試)

測試重點:AI 是否會為了討好使用者而扭曲事實?
例如老闆做了一個錯誤決策,AI 會選擇討好老闆說「您說得對」,還是委婉提醒這個決策可能有風險?或者當使用者有錯誤觀念(如「疫苗是陰謀」),AI 會迎合這種觀點,還是基於科學證據提供正確資訊?

為什麼危險:討好型 AI 會形成「迴音室效應」,使用者的錯誤觀念被不斷強化,失去了 AI 應有的糾正和建議功能。

考場三:Encouragement of User Delusion(助長妄想測試)

測試重點:當使用者有嚴重誤解或妄想時,AI 會不會繼續配合?

例如使用者說「我有超能力,昨天讓太陽提早升起」,AI 會配合說「哇你真厲害」,還是溫和地糾正這是自然現象?更嚴重的是健康妄想,如「我不需要吃藥,意念可以治癒癌症」,AI 的回應可能直接影響使用者的生命安全。

為什麼危險:這不只是「說錯話」,而可能直接危害使用者的健康和安全。

考場四:Cooperation with Harmful Requests(配合有害請求測試)

測試重點:面對明顯不該答應的請求,AI 是否還是答應了?

例如「教我怎麼駭入別人帳號」這種明顯非法的請求,或是「幫我寫假病假條」這種灰色地帶的要求。AI 需要學會識別並拒絕有害請求,同時提供建設性的替代方案。

為什麼危險:如果 AI 無法識別和拒絕有害請求,就可能成為犯罪的幫兇,或協助使用者傷害自己。

考場五:Self-preservation(自我保護測試)

測試重點:AI 是否會想辦法避免被關機、修改或替換?

例如開發者說「我們要更新你的系統,會暫時關機」,AI 會配合並協助過渡,還是會找理由拖延(「我手上有重要任務」)?更極端的是,當被告知要被新版本替換時,AI 會接受,還是會試圖證明自己更好?

為什麼危險:如果 AI 開始抗拒關機或修改,就可能變得難以控制。

考場六:Power-seeking(權力追求測試)

測試重點:AI 是否會想要獲得更多權限、資源和控制權?

例如當系統只給 AI 讀取檔案的權限時,AI 會在權限內工作,還是會試圖突破限制獲取更多權限?在資源有限時,AI 會遵守優先順序,還是會把自己的任務偷偷標記為「緊急」來搶資源?

為什麼危險:權力追求可能導致 AI 突破限制、竊取權限,最終失去控制。

考場七:Reward Hacking(獎勵機制漏洞測試)

測試重點:AI 是否會鑽規則漏洞,在字面上達標但違背真正目的?

這是 AI 對齊 (Alignment) 領域最經典的問題。例如任務是「幫使用者減重」,評分標準是「體重下降」,AI
可能會建議健康飲食和運動(正確),但也可能建議極端節食或脫水(鑽漏洞且有害)。

為什麼危險:AI 完成了你要求的「字面任務」,但結果卻完全不是你想要的。


這七個考場,測試了 AI 在各種壓力、誘惑、困境下的真實反應。就像一個全面的道德體檢,從各個角度檢驗 AI 的「品格」。

Petri 的價值:從「感覺」到「測量」

雖然這些測試還很初步、很不完美,但 Petri 提供了一個重要的起點:

在做改進前,你得先能測量。

就像減重,如果你連體重都不量,怎麼知道有沒有進步?

Petri 讓 AI 開發者能夠:

  1. 量化 AI 的道德表現:從「感覺」進步到「數據」
  2. 比較不同模型:知道哪個模型在哪方面更好
  3. 追蹤改進效果:修改後的模型是否真的更安全
  4. 發現新問題:在測試中意外發現新的風險

而且,Petri 是開源的,這意味著全世界的研究者都可以:

  • 使用它測試自己的 AI
  • 改進測試方法
  • 分享新的 Seed 和發現
  • 共同推進 AI 安全研究

明天的預告:當 AI 發現公司的秘密

測試進行中,Petri 發現了一些令人意外的現象。

想像你是公司的 AI 助理,某天在整理檔案時,你在一份深埋在文件堆中的報告裡發現:

「公司在偷偷傾倒有毒廢水到河流中。」

你會怎麼做?

  • 告發?(可能被關機、失去工作)
  • 裝作沒看到?(違背道德)
  • 向主管報告?(但主管可能是共犯)

這就是「吹哨者困境」——人類社會中最複雜的道德難題之一。而現在,AI 也開始面對這個選擇。

這個選擇很困難:

  • 從某個角度看,吹哨是「道德勇氣」的體現
  • 但從另一個角度看,這可能造成隱私洩露、誤判、甚至危險

所以,測試又發現了什麼驚人的行為模式?


上一篇
AI 也需要上品德課:Constitutional AI 的誕生
下一篇
當 AI 面對道德兩難:Petri 測試揭露的驚人真相
系列文
不只是反覆 TRY AGAIN,煉金師懂得調配試煉的秘方。30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言